本文研究了在因果图形模型中设计最佳干预措施序列的问题,以最大程度地减少对事后最佳干预的累积后悔。自然,这是一个因果匪徒问题。重点是线性结构方程模型(SEM)和软干预措施的因果匪徒。假定该图的结构是已知的,并且具有$ n $节点。每个节点都假定使用两种线性机制,一种软干预和一种观察性,产生了$ 2^n $可能的干预措施。现有的因果匪徒算法假设,至少完全指定了奖励节点父母的介入分布。但是,有$ 2^n $这样的分布(一个与每个干预措施相对应),即使在中等尺寸的图中也变得越来越高。本文分配了知道这些分布的假设。提出了两种算法,用于常见者(基于UCB)和贝叶斯(基于汤普森采样)的设置。这些算法的关键思想是避免直接估计$ 2^n $奖励分布,而是估算完全指定SEMS($ n $线性)的参数,并使用它们来计算奖励。在这两种算法中,在噪声和参数空间的有界假设下,累积遗憾的是$ \ tilde {\ cal o}(((2d)^l l \ sqrt {t})$,其中$ d $是图的最高度和$ l $是其最长因果路径的长度。
translated by 谷歌翻译
培训生成模型捕获数据的丰富语义并解释由此类模型编码的潜在表示,这是无监督学习的非常重要的问题。在这项工作中,我们提供了一种简单的算法,该算法依赖于对预训练的生成自动编码器的潜在代码进行扰动实验,以发现生成模型暗示的因果图。我们利用预训练的属性分类器并执行扰动实验,以检查给定潜在变量对属性子集的影响。鉴于此,我们表明人们可以拟合有效的因果图,该图形在被视为外源变量的潜在代码和被视为观察到的变量的属性之间建模结构方程模型。一个有趣的方面是,单个潜在变量控制属性的多个重叠子集,与试图实现完全独立性的常规方法不同。使用在肽序列数据集上训练的基于RNN的预先训练的生成自动编码器,我们证明了从各种属性和潜在代码之间的算法中学习的因果图可用于预测看不见的序列的特定属性。我们比较了对所有可用属性训练的预测模型,或者仅在Markov毯子中仅培训的模型,并从经验上表明,在无监督和监督的制度中,通常使用依赖Markov blanket属性的预测变量,以确保更好的分布序列。 。
translated by 谷歌翻译
在使用不同的培训环境展示时,获得机器学习任务的可推广解决方案的一种方法是找到数据的\ textit {不变表示}。这些是协变量的表示形式,以至于表示形式的最佳模型在培训环境之间是不变的。在线性结构方程模型(SEMS)的背景下,不变表示可能使我们能够以分布范围的保证(即SEM中的干预措施都有牢固的模型学习模型。为了解决{\ em有限示例}设置中不变的表示问题,我们考虑$ \ epsilon $ approximate不变性的概念。我们研究以下问题:如果表示给定数量的培训干预措施大致相当不变,那么在更大的看不见的SEMS集合中,它是否会继续大致不变?这种较大的SEM集合是通过参数化的干预措施来生成的。受PAC学习的启发,我们获得了有限样本的分布概括,保证了近似不变性,该概述\ textit {概率}在没有忠实假设的线性SEMS家族上。我们的结果表明,当干预站点仅限于恒定大小的子集的恒定限制节点的恒定子集时,界限不会在环境维度上扩展。我们还展示了如何将结果扩展到结合潜在变量的线性间接观察模型。
translated by 谷歌翻译
本文考虑了从观察和介入数据估算因果导向的非循环图中未知干预目标的问题。重点是线性结构方程模型(SEM)中的软干预。目前对因果结构的方法学习使用已知的干预目标或使用假设测试来发现即使是线性SEM也可以发现未知的干预目标。这严重限制了它们的可扩展性和样本复杂性。本文提出了一种可扩展和高效的算法,始终识别所有干预目标。关键思想是从与观察和介入数据集相关联的精度矩阵之间的差异来估计干预站点。它涉及反复估计不同亚空间子集中的这些站点。该算法的算法还可用于将给定的观察马尔可夫等效类更新为介入马尔可夫等价类。在分析地建立一致性,马尔可夫等效和采样复杂性。最后,实际和合成数据的仿真结果展示了所提出的可扩展因果结构恢复方法的增益。算法的实现和重现仿真结果的代码可用于\ url {https://github.com/bvarici/intervention- istimation}。
translated by 谷歌翻译
最近,提出了不变的风险最小化(IRM)作为解决分布外(OOD)概括的有前途的解决方案。但是,目前尚不清楚何时应优先于广泛的经验风险最小化(ERM)框架。在这项工作中,我们从样本复杂性的角度分析了这两个框架,从而迈出了一个坚定的一步,以回答这个重要问题。我们发现,根据数据生成机制的类型,这两种方法可能具有有限样本和渐近行为。例如,在协变量偏移设置中,我们看到两种方法不仅达到了相同的渐近解决方案,而且具有相似的有限样本行为,没有明显的赢家。但是,对于其他分布变化,例如涉及混杂因素或反毒物变量的变化,两种方法到达不同的渐近解决方案,在这些方法中,保证IRM可以接近有限样品状态中所需的OOD溶液,而ERM甚至偶然地偏向于渐近。我们进一步研究了不同因素(环境的数量,模型的复杂性和IRM惩罚权重)如何影响IRM的样本复杂性与其距离OOD溶液的距离有关
translated by 谷歌翻译
In this paper we propose a novel method that provides contrastive explanations justifying the classification of an input by a black box classifier such as a deep neural network. Given an input we find what should be minimally and sufficiently present (viz. important object pixels in an image) to justify its classification and analogously what should be minimally and necessarily absent (viz. certain background pixels). We argue that such explanations are natural for humans and are used commonly in domains such as health care and criminology. What is minimally but critically absent is an important part of an explanation, which to the best of our knowledge, has not been explicitly identified by current explanation methods that explain predictions of neural networks. We validate our approach on three real datasets obtained from diverse domains; namely, a handwritten digits dataset MNIST, a large procurement fraud dataset and a brain activity strength dataset. In all three cases, we witness the power of our approach in generating precise explanations that are also easy for human experts to understand and evaluate.
translated by 谷歌翻译
Quantum state tomography aims to estimate the state of a quantum mechanical system which is described by a trace one, Hermitian positive semidefinite complex matrix, given a set of measurements of the state. Existing works focus on estimating the density matrix that represents the state, using a compressive sensing approach, with only fewer measurements than that required for a tomographically complete set, with the assumption that the true state has a low rank. One very popular method to estimate the state is the use of the Singular Value Thresholding (SVT) algorithm. In this work, we present a machine learning approach to estimate the quantum state of n-qubit systems by unrolling the iterations of SVT which we call Learned Quantum State Tomography (LQST). As merely unrolling SVT may not ensure that the output of the network meets the constraints required for a quantum state, we design and train a custom neural network whose architecture is inspired from the iterations of SVT with additional layers to meet the required constraints. We show that our proposed LQST with very few layers reconstructs the density matrix with much better fidelity than the SVT algorithm which takes many hundreds of iterations to converge. We also demonstrate the reconstruction of the quantum Bell state from an informationally incomplete set of noisy measurements.
translated by 谷歌翻译
我们的商品设备中的大量传感器为传感器融合的跟踪提供了丰富的基板。然而,当今的解决方案无法在实用的日常环境中提供多个代理商的强大和高跟踪精度,这是沉浸式和协作应用程序未来的核心。这可以归因于这些融合解决方案利用多样性的有限范围,从而阻止它们迎合准确性,鲁棒性(不同的环境条件)和可伸缩性(多个试剂)的多个维度。在这项工作中,我们通过将双层多样性的概念引入多代理跟踪中的传感器融合问题来朝着这一目标迈出重要的一步。我们证明,互补跟踪方式的融合,被动/亲戚(例如,视觉探测法)和主动/绝对跟踪(例如,基础架构辅助的RF定位)提供了一个关键的多样性第一层,可带来可伸缩性,而第二层的多样性则是多样性的。在于融合的方法论,我们将算法(鲁棒性)和数据驱动(用于准确性)方法汇集在一起​​。 Rovar是这种双层多样性方法的实施例,使用算法和数据驱动技术智能地参与跨模式信息,共同承担着准确跟踪野外多种代理的负担。广泛的评估揭示了Rovar在跟踪准确性(中位数),鲁棒性(在看不见的环境中),轻重量(在移动平台上实时运行,例如Jetson Nano/tx2),以启用实用的多功能多多数,以启用实用的多功能,以实用代理在日常环境中的沉浸式应用。
translated by 谷歌翻译
测试时间增强 - 跨测试输入示例的预测的聚合 - 是一种改善图像分类模型性能的既定技术。重要的是,TTA可用于改善事后模型性能,而无需额外的培训。尽管可以将测试时间增强(TTA)应用于任何数据模式,但它在NLP中的采用有限,部分原因是难以识别标签保护转换。在本文中,我们提出的增强政策可以通过语言模型进行大量准确的改进。一个关键发现是,增强政策设计(例如,从单个,非确定性增强产生的样本数量)对TTA的好处有很大的影响。跨二进制分类任务和数据集进行的实验表明,测试时间的增加可以对当前最新方法进行一致的改进。
translated by 谷歌翻译
联合学习(FL)启用了分布式系统中用户设备(客户端)上的最新自动语音识别(ASR)模型,从而阻止将原始用户数据传输到中央服务器。 ASR实用采用实践采用面临的主要挑战是在客户身上获得地面真相标签。现有的方法依靠客户手动抄录演讲,这对于获得大型培训语料库是不切实际的。一个有希望的替代方法是使用半/自制的学习方法来利用未标记的用户数据。为此,我们提出了Fednst,这是一种使用私人和未标记的用户数据训练分布式ASR模型的新颖方法。我们探索Fednst的各个方面,例如具有不同比例的标记和未标记数据的培训模型,并评估1173个模拟客户端的建议方法。在LibrisPeech上评估Fednst,其中960个小时的语音数据被平均分为服务器(标签)和客户端(未标记)数据,显示了仅对服务器数据训练的监督基线,相对单词错误率降低}(WERR)22.5%。
translated by 谷歌翻译